EvoClass
AI024
ROCm 與 HIP:詳盡的十章教程
AMD GPU 上的效能工程
課程
第 7 課
日期
2026-03-31
講師
AI 專家
時長
60 分鐘
學習目標
利用 Omniperf 與 ROCProfiler 識別架構瓶頸。
優化記憶體存取模式,以最大化 HBM2e/HBM3 的傳輸效率。
理解 CDNA 計算單元上的波前排程與使用率。
針對向量與矩陣核心實作指令級優化。